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摘要 : [ 目的 /意义 ] 数据 管 护 是 信息 化 科研 环境 下 研究 数据 管理 的 重要 部 分 ， 梳 理 国 际 已 有 相关 研 
究 成 果 ， 以 期 全 面 认识 数据 管 护 ， 为 国内 数据 管理 研究 提供 参考 。[ 方 法 /过 程 ] 以 Web of Science 为 数 
HER, MRA ARE 2016 年 10 月 ， 检 索 词 为 数据 管 护 ， 将 检索 到 的 文献 作为 研究 对 象 ， 基 于 文献 共 现 和 
共 被 引 分 析 方 法 ， 利 用 CiteSpace 亚 软 件 工 具 ， 绘 制 国际 数据 管 护 的 知识 图 谱 ， 采 用 内 容 分 析 法 ， 基 于 研 
究 的 学 科 分 布 、 研 究 机 构 、 研 究 人 员 以 及 知识 基础 的 4 个 维度 ,对 国际 数据 管 护 研究 进行 解读 、 分 析 与 总 结 。 
[ 结果 / 结论 ] 国际 数据 管 护 研究 始 于 2000 年 ， 已 经 步 入 成 熟 期 ， 并 形成 特定 的 研究 学 科 、 机 构 和 群体 ， 
研究 的 知识 基础 主要 为 数据 描述 、 集 成 与 关联 、 科 研 过 程 的 数据 维护 和 增值 活动 、 数 据 管 护 利益 相关 者 以 


及 图 书馆 服务 新 模式 。 
关键 词 : 数据 管 护 数据 管理 研究 数据 
分 类 号 : G250 


引用 格式 : ARI. 国际 数据 管 护 的 科学 知识 图 谱 


用 日 期 ]. http://www.kmf.ac.cn/p/1/137/. 


@5 语 

随 着 E-Science 的 发 展 ， 科 研 行为 的 主要 特 
征 是 基于 数据 的 科学 探索 ， 研 究 数 据 是 科研 活 
动 的 驱动 力 ， 科 学 人 研究 已 步 人 以 数据 密集 型 为 
特征 的 大 数据 科研 范式 站。 大 数据 时 代 ， 研 究 
数据 的 内 涵 与 特点 发 生 改 变 ， 其 来 源 范 围 广 、 类 
型 多 样 、 数 据 体 量 巨大 以 及 数据 流 实时 变化 ， 被 
称 之 为 科学 大 数据 中。 因此 ， 以 往 的 数据 管理 
模式 因 不 能 适应 研究 数据 的 管理 ， 而 使 得 研究 
数据 易 遭 到 损坏 与 污染 ， 数 据 不 能 得 到 有 效 利 
用 和 长 久保 在 ， 影 响 现 阶段 的 科学 研究 行为 的 
进行 。 各 领域 学 者 基于 自身 学 术 背 景 对 研究 数 
据 管 护 (data curtain, DC) 进行 了 理论 研究 与 实 


知识 图 谱 


究 [VOL]. 知识 管理 论坛 2017, 2(3): 201-213[ 引 


践 探索 。 笔 者 将 对 国际 学 术 界 的 数据 管 护 研究 
进行 梳理 ， 以 期 整体 、 全 面 地 认识 与 把 握 数 据 
管 护 研 究 的 整体 面貌 。 


@ 数 据 管 护 定 义 


英国 数据 管 护 中 心 (Digital Curation Centre, 
DCC) 对 数据 管 护 进行 明确 定义 : 数据 管 护 是 指 
贯穿 数字 化 研究 数据 整个 生命 周期 的 维护 、 保 
存 和 增值 的 动态 主动 的 管理 活动 ， 对 研究 数据 
进行 主动 的 管理 ， 其 目的 是 为 了 确保 数据 在 未 
来 研究 价值 的 威胁 、 降 低 数字 老化 的 风险 ;， 置 
于 可 信 的 数字 化 存储 库 中 的 管 护 数 据 ， 可 促进 
英国 研究 领域 的 数据 共享 ， 数据 管 护 可 减少 数 
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据 创 建 的 重复 工作 ， 并 通过 增强 高 质量 研究 的 
可 用 性 来 提高 数据 的 长 期 价值 中。 联合 信息 系 
统 委员 会 (Joint Information Systems Committee, 
JISC) 指出 , 数据 管 护 是 在 数字 数据 和 研究 成 果 
的 整个 生命 周期 内 ,维护 和 利用 它们 以 服务 当前 
和 未 来 的 用 户 的 一 系列 活动 中。 

从 档案 视角 解读 ， 认 为 数据 管 护 是 将 数字 
保存 、 数 字 图 书馆 管理 、 数 字 归 档 和 数据 管理 
阶段 性 介入 活动 进行 融合 成 一 个 整体 ， 数 据 管 
护 实质 是 贯穿 整个 数据 生命 周期 的 管 护 活动 ， Be 
据 管 护 术 语 的 产生 ， 由 于 数字 归档 的 含义 在 信 
息 资 源 保存 领域 的 滥用 ， 使 得 数字 归档 的 含义 
遭 到 曲解 ， 使 得 数字 资源 的 长 期 、 全 过 程 管理 
的 研究 需要 创建 新 的 术语 来 准确 描述 数字 资源 
的 生命 周期 管理 的 研究 中 。 

美国 伊利 诺 伊 大 学 图 书馆 与 信息 科学 学 院 
提出 数据 管 护 是 在 学 术 研 究 、 科 学 和 教育 活动 
中 主动 、 持 续 地 贯穿 数据 生命 周期 的 数据 管理 
活动 ， 通 过 数据 认证 、 归 档 、 管 理 、 保 存 和 描 
述 来 促进 数据 的 检索 发 现 、 长 期 保存 和 增值 重 
FA, 

综 上 所 述 ， 数 据 管 护 具 有 以 下 特点 : 
QD 数据 管 护 是 一 种 主动 、 持 续 和 不 间断 的 数据 
管理 ， 贯 穿 整 个 研究 数据 的 生命 周期 ， 确 保 人 研 
究 数 据 管理 过 程 是 一 条 可 追溯 的 连续 链条 ; 
@ 数 据 管 护 目 的 是 维护 和 增值 研究 数据 的 价 
值 ， 确 保 数 据 的 真实 可 靠 和 长 期 可 用 ， 满 足 现 
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在 和 未 来 的 使 用 需求 ，(3) 数 据 管 护 促进 研究 数 
据 资源 的 检索 与 发 现 、 共 享 与 利用 、 减 少 科研 
资源 的 重复 建设 。 


全 研究 结果 分 析 


3.1 数据 与 方法 

为 全 面 把 握 国 际 数 据 管 护 研 究 情 况 ， 避 人 免 
遗漏 重要 文献 ， 本 文 所 选取 的 统计 数据 来 源 于 
Web of Science (WOS) 核心 合集 数据 库 ， 以 
“digital curation” “data curation” 为 主题 或 标题 
进行 检索 ， 时 间 跨 度 : 1900-2016 年 ， 文 献 类 
型 包 f&“article, editorial, letter, proceeding 
paper, review”5 类， 检索 时 间 为 2016 4F 10 H 
31 日 ， 并 对 检索 结果 进行 去 重 、 清 洗 ， 最 终 得 
到 319 条 文献 记录 。 
国外 数据 管 护 研 究 的 文献 增长 趋势 符合 普 
赖 斯 提出 的 科学 文献 指数 增长 的 普遍 规律 ， 拟 
合 优 度 R 为 0.974〈 见 图 1) 。 国 外 数据 管 护 研 
究 始 于 2000 年 ，2000-2005 年 间 的 发 文 量 少 ， 发 
展 极 为 缓慢 ， 研 究 处 于 起 步 阶段 ，2006-2013 年 
间 的 年 发 文 量 呈 现 增长 态势 ， 实 际 发 文 量 都 超 
过 理论 值 , 研究 处 于 快速 增长 期 2013 年 之 后 , 实 
际 发 文 量 小 于 理论 值 ， 且 两 者 之 间 的 差距 逐年 
拉 大 ， 研 究 步 人 成 熟 期 。 数 据 管 护 的 年 发 文 量 
呈 绝 对 值 持续 增长 趋势 ， 自 2013 年 起 ， 每 年 发 
文 量 均 在 40 篇 以 上 ，2015 年 达到 62 篇 。 
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图 1 WOS 数据 库 数 据 管 护 研究 积累 文献 量 
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本 文 所 选取 的 研究 方法 是 科学 知识 图 谱 ， 科 
学 知识 图 谱 是 将 信息 可 视 化 技术 、 应 用 数学 、 图 
形 学 、 计 算 机 科学 等 与 科学 计量 学 结合 起 来 的 交 
又 科学 研究 方法 ， 可 将 科学 前 沿 领域 的 海量 文献 
数据 信息 转换 为 可 视 化 图 像 ， 展 示 单 任 个 人 经 验 
难以 直观 获得 的 学 科 前 沿 领域 的 总 体 图 景 、 发 展 
态势 与 结构 特征 。 具 体 分 析 方 法 是 基于 共 现 分 析 
法 来 明确 国外 数据 管 护 的 研究 主体 ， 利 用 共 被 引 
分 析 展 现 国外 数据 管 护 的 知识 基础 。 
3.2 数据 管 护 的 研究 主体 

利用 CiteSpace 软件 共 现 图 谱 分 析 法 ， 从 学 
科 分 布 、 人 研究 机 构 、 作 者 分 析 3 个 维度 对 施 引 
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文献 进行 分 析 ， 以 探求 数据 管 护 的 研究 主体 。 
3.2.1 学 科 分 布 分 析 科 学 知识 图 谱 

如 图 2 所 示 ， 计 算 机 科学 与 图 书 情报 学 的 
节点 年 轮 较 大 ， 表 明 学 科 的 发 文 数量 多 ; 节点 
年 轮 颜色 由 蓝 、 绿 、 黄 组 成 ， 暗 示人 研究 跨 3 个 
时 间 段 ， 长 期 时 间 关 注 且 持续 性 研究 。 生 物化 
学 研究 方法 、 天 文 与 天 体 物理 、 计 算 机 科学 、 成 
像 科学 与 照相 技术 、 统 计 与 概率 、 地 理学 、 生 
物化 学 与 分 子 生 物 、 遥 感 、 基 因 与 遗传 学 等 学 
科 的 节点 被 紫 圈 标注 出 来 ， 代 表 广 点 具有 较 大 
的 中 心 度 不 小 于 0.1) ， 处 于 在 网 络 结构 中 重 
要 的 中 心 位 置 ， 在 研究 中 具有 重要 影响 力 。 
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图 2 WOS 数据 库 数 据 管 护 的 学 科 分 布 


从 学 科 分 布 来 看 ， 数 据 管 护 研究 具有 多 学 
科 性 ， 应 用 学 科 和 基础 学 科 均 关注 数据 管 护 方 
面 问题 ， 积 极 开展 相应 的 研究 工作 ， 产 生 这 种 
现象 的 原因 主要 为 : 中 研究 数据 主要 由 具体 的 
基础 学 科 产 生 。 研 究 数据 来 源 于 科学 研究 的 观 
测 、 探 测 、 调 查 和 综合 分 析 所 获得 的 数值 型 的 
事实 记录 ， 随 着 21 世纪 的 信息 技术 革命 ， 新 一 
代 科学 研究 的 手段 与 方式 的 应 用 ， 促 使 研究 数 
据 的 生产 方式 步 和 人 自动 式 化 感知 式 系统 阶段 。 


研究 数据 具有 学 科 背 景 属性 ， 基 础 学 科 多 围绕 
学 科 的 特定 项 目 开 展 数据 管 护 研究 ， 以 满足 自 
身 学 科 知 识 体系 对 研究 数据 的 管 护 的 特定 需要 。 
@ 不 同学 科 的 研究 数据 在 管理 与 服务 具有 共同 
属性 。 应 用 学 科 夯 实 了 数字 化 科研 的 基础 以 及 
统一 了 研究 数据 的 技术 标准 ， 这 些 称 为 了 数据 
管 护 中 的 网 络 基础 设施 的 依托 、 信 息 技 术 的 文 
撑 、 政 策 指 导 与 管 护 理论 的 提供 了 强 有 力 的 文 
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计算 机 科学 在 数据 管 护 的 研究 方向 主要 是 
人 工 智能 、 信 息 系统 、 跨 学 科 应 用 、 软 件 工程 
与 理论 方法 ， 从 全 方面 对 数据 管 护 研究 进行 技 
术 支 持 ， 其 研究 始 于 2001 年 。 生 命 科学 与 生物 
医学 对 数据 管 护 研 究 力度 与 重视 程度 不 亚 于 计 
算 机 科学 ， 随 着 新 一 代 测 序 工具 与 技术 出 现 ， 基 
因 研究 产生 海量 的 基因 数据 ， 因 此 ， 生 命 科学 
与 生物 医学 对 于 基因 数据 管理 需求 增 大 ， 需 要 
确保 基因 数据 的 及 时 更 新 、 实 时 维护 、 关 联 和 


| Univ Fed Rio 


‘Stanford Univ "I~ New 
_ Univ Sheffield 


Univ Bristol 


| Free Univ Berlin b 
Purdue Univ- 
-Univ Auckland 


Univ Glasgow 
Columbia Unit 


Texas A&M Univ Univ 

W 

Univ Porto 
-Univ Potsdam 


ETH 
GFZ German Res Ctr Geosci 
Univ Calif Los Angeles ` 


Kings Coll London 
_ Johns Hopkins Univ 
de Janeiro 


Mexico 


Univ Edinburgh 


"inst rablly Cambridge 
Univ Calif San Diego chondon Sch nyg a Trop mes Univ S Florida 
Amsterdam 


Manchester- 
niv KwaZulu Natal y 
Univ Marburg 


集成 资源 、 长 期 保存 与 有 效 获 取 等 ， 驱 动 科学 
研究 的 新 发 现 。 图 书 情报 学 的 发 文 数 高 达 84 
篇 ， 科 学 体 量 较 大 ， 学 术 影 响 力 较 强 ， 是 推动 
数据 管 护 研 究 进展 的 主力 军 之 一 。 
3.2.2 研究 机 构 分 析 

由 图 3 可 见 ， 北 卡罗来纳 大 学 教堂 山 分 
校 、 爱 丁 堡 大 学 、 普 渡 大 学 、 格 拉 斯 哥 大 学 、 约 
Way: UE eT. MHF LA RE RIE 
加 利 福 尼 亚 大 学 在 数据 管 护 研究 上 比较 活跃 。 
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图 3 WOS 数据 管 护 的 研究 机 构 


突现 是 指 变量 值 在 短 时 间 内 发 生 很 大 变 
化 ， 突 现 信 息 是 一 种 可 用 来 度量 更 深层 变化 
的 手段 ， 对 机 构 突 现 的 研究 ， 能 够 把 握 机 构 
在 数据 管 护 研究 上 的 关键 转变 节点 。 北 卡 罗 
来 纳 大 学 教堂 山 分 校 2007 年 共有 4 篇 关于 数 
据 管 护 的 文献 ， 主 要 为 数据 管 护 的 人 才 培 养 
和 软件 工具 研发 的 研究 。 其 图 书馆 与 信息 科 
学 学 院 承 担 的 数据 管 护 课程 (Digital Curation 
Curriculum，DigCCurr ) 项 目 ， 包 括 培育 数据 管 
护 的 研究 生 层 次 专业 人 才 ， 探 索 数据 管 护 课程 
设置 中， 界定 数据 管 护 人 才 以 及 数据 管 护 应 具备 
技能 与 知识 外。The Vidarch Project] 项 目 捕获 数 
据 资 源 的 相关 信息 ， 基 于 数据 资源 的 元 数据 和 上 
下 文本 信息 关系 , 实现 数据 资源 的 全 面 注释 名 研 
发 ContextMiner 2 工具 ， 帮 助 数据 管 护 人 在 数据 
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库 中 进行 数据 查询 、 编 译 及 存储 ""。 爱 丁 堡 大 
学 2004-2007 年 共有 4 篇 关于 数据 管 护 的 文献 。 
面 对 和 后 物 数据 爆发 式 增长 ，P Buneman 倡议 对 
数据 库 进 行 管 护 ， 确 保 数 据 的 安全 可 靠 ""; P. 
Buneman 同时 疝 释 数据 管 护 的 两 种 不 同 的 文 
化 ， 档 案 专家 、 管 护 者 侧重 对 数据 资源 的 长 期 
保存 与 可 靠 访 问 ， 研 究 者 侧重 数据 资源 的 可 视 
tk. YER KI", C. Rusbridge 等 认为 DCC 
成 立 将 更 好 地 指导 数据 管 护 活 动 的 开展 l, M. 
McGinley 呼吁 将 数据 管 护 纳入 法 律 层面 ， 以 此 
将 有 效 地 指导 研究 数据 的 开放 或 保密 1 中。 普 渡 
大 学 在 2008 年 发 表 2 篇 关于 数据 管 护 文献 。 普 
渡 大 学 图 书馆 在 图 书馆 学 和 档案 学 原理 的 指导 
下 ， 利 用 分 布 式 机 构 知 识 库 设施 基础 ， 开 展 具 
体 学 科 的 研究 数据 管理 的 探索 ， 为 数据 管 护 研 
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究 提 供 实践 案例 已，M. Y. Eltabakh 研发 生物 数 
据 库 的 可 扩展 数据 库 引 擎 ， 支 持 人 研究 者 对 生物 
数据 库 系统 进行 统一 的 数据 管理 ， 如 数据 及 派 
生 信 息 的 注释 、 存 储 、 数 据 查 询 和 跟踪 等 ， 促 
进 普 渡 大 学 的 研究 数据 管理 "1。 
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3.2.3 作者 分 析 

如 图 4 所 示 , 节点 年 轮 的 颜色 变化 反映 了 研究 
者 的 活跃 时 段 ， 笔 者 依据 图 谱 的 时 间 分 区 的 颜色 变 
化 ， 将 数据 管 护 研 究 领域 的 主要 研究 者 分 为 三 代 研 
究 者 , 以 2006 年 和 2012 年 作为 时 间 分 区 的 分 界 点 。 


| Matthew S. Mayernik 


第 一 代 研 究 者 的 节点 以 蓝 色 为 主 ， 随 着 科 
研 信息 化 的 展开 ， 研 究 者 对 研究 数据 管 护 的 需 
求 不 断 增 加 。P Buneman 团队 倡议 及 阐述 数据 
管 护 以 及 数据 管 护 中 心 成 立 的 意义 ; P. Martin 
团队 研发 基因 数据 库 的 集成 分 析 工 具 ， 文 持 数 
据 集成 化 研究 。 第 二 代 研 究 者 的 节点 以 绿色 为 
主 ， 主 要 是 图 情 及 计算 机 领域 围绕 研究 数据 管 
护 展 开 的 研究 活动 。C. Prom 团队 从 数据 管 护 教 
育 角 度 ， 主 持 开 展 数据 管 护 课程 (DigCCurr) 和 
数据 管 护 差距 弥补 课程 (Closingthe Digital 
Curation Gap) 以 储备 数据 管 护 的 专业 人 才 ; L. 
Martinez-Uribe 团队 研究 图 书馆 在 数据 管 护 的 角 
色 定 位 、 服 务 创新 ，S. Ross 团队 研发 文本 流派 
分 类 方法 自动 获取 元 数据 。 第 三 代 研 究 者 的 节 
点 以 黄色 为 主 ， 研 究 主要 是 针对 特定 学 科 开 展 
的 细 粒 度 的 数据 管 护 活动 ，A. Sinchez-Ferrer 
队 基于 生物 基因 需求 ， 提 出 数据 管 护 的 具体 要 
3K; W. Los 团队 建立 数据 管 护 以 此 来 推进 数据 
资源 共享 开放 ; C. Jandrasits 团队 从 纳米 领域 提 


图 4 WOS 数据 管 护 的 作者 分 析 


出 数据 管 护 的 重要 性 ，B. Stvilia 团队 从 基因 领 
域 出 发 ， 人 研究 数据 管 护 以 及 数据 质量 要 求 ; J. 
Bhate 团队 介绍 国际 分 子 交换 联盟 中 心 (IMEx 
Central) 实施 交互 质量 控制 、 交 义 管 护 等 数据 
管 护 措施 。 
3.3 数据 管 护 研究 的 知识 基础 

由 图 5 可知， 文献 共 被 引 网 络 主要 为 8 个 
聚 类 。 基 于 被 引文 献 和 施 引 文献 、 聚 类 标签 对 
各 类 的 研究 内 容 和 核心 观点 进行 解读 ， 发 现 研 
究 内 容 大 致 可 分 为 数据 管 护 对 科研 活动 的 新 价 
值 、 数 据 管 护 的 软 硬 件 设施 的 建设 、 数 据 管 护 
在 具体 学 科 的 应 用 、 数 据 管 护 的 利益 相关 者 以 
及 图 书馆 的 服务 模式 几 方 面 。 
3.3.1 数据 管 护 对 科研 活动 的 新 价值 

表 1 列 出 聚 类 3#scientifc data 的 被 引文 
献 和 施 引 文献 ， 曾 释 科 学 数据 对 科研 活动 的 新 
价值 ， 这 些 文献 主要 研究 了 如 何 使 用 数据 管 护 
实现 对 数据 的 维护 和 增值 ， 涉 及 到 科研 工作 流 
程 、 数 据 共 享 及 出 版 的 管理 。 科 学 研究 具有 数 
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据 驱 动 性 和 开放 协作 性 ， 数 据 共 享 可 以 支持 科 
学 研究 的 再 现 或 验证 ， 确 保 研究 结果 为 公众 所 


oX 
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用 ,方便 其 他 人 利用 现 有 数据 开展 新 研究 ， 提 
升 研 究 创新 水 平 ""。 
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图 5 数据 管 护 研究 文献 共 被 引 时 间 线 程 图 


表 1 RŽ 3#scientific data 核心 被 引文 献 与 施 引 文献 


被 引文 献 施 引 文献 
被 引 中心 度 作者 年 份 文献 标题 引用 文献 标题 
11 0.48 GL, 2012 The conundrum of sharing research data [2] Data sharing, small science 
Borgman and institutional repositories 
7 0.45 C. Tenopir 2011 Data Sharing by Scientists: Practices [4] Designing submission 
and Perceptions and workflow services for 
6 0.45 M.J. Costello 2009 Motivating Online Publication of Data preserving interdisciplinary 
scientific data 
7 0.44 GL. 2007 Little science confronts the data deluge: 


Borgman 


habitat ecology, embedded sensor 


networks, and digital libraries 


科学 界 对 小 研究 数据 潜在 价值 的 认识 加 
ER", P. Borgman 以 栖息 地 生态 学 为 例 ， 介 绍 
了 数字 图 书馆 利用 租 入 式 网 络 感知 中 心 ， 来 支 
持 “ 小 科学 ”学 科 的 数据 管理 ， 以 便 解 决 小 研究 
数据 趋向 于 异 质 、 个 人 管理 的 状态 或 是 未 被 保 
存 、 未 被 管理 的 状态 中。 尽管 海量 研究 数据 产 
生 ， 使 得 数据 洪流 现象 出 现 ， 但 只 有 少数 领域 
出 现 数 据 共 享 ，C. Tenopir 等 2011 年 对 1329 
名 科学 家 进行 数据 共享 实践 与 理论 调研 ， 发 现 
阻碍 科学 家 进行 数据 共享 首要 原因 是 时 间 不 足 


和 资金 缺乏 ， 其 次 是 开放 和 平台、 标准 规范 、 政 
策 制 定 等 站。M. H. Cragin “ 7 FH AY Data 
Curation Profiles 项 目 是 基于 研究 者 角度 对 数据 
共享 问题 进行 研究 ， 从 分 享 什 么 数据 、 何 时 和 
与 谁 分 享 的 3 个 维度 分 析 研 究 者 数据 共享 行为 
Pl; P, Borgman 分 析 什么 数据 应 该 被 共享 、 被 
谁 共享 、 在 什么 条 件 下 共享 、 为 什么 共享 以 及 
要 做 什么 努力 等 方面 , 能 帮助 认识 数据 共享 ， 以 
上 研究 为 数据 政策 制定 和 数据 实践 开展 提供 了 
E, 


202310.03111v1 


chinaXiv 


M. J. Costello 提出 以 数据 出 版 代替 数据 共 
享 ， 构 建 数据 的 引用 与 访问 系统 ， 激 励 环 境 、 生 
物 学 科学 家 发 布 研 究 数 据 ， 解 决 数据 可 用 性 问 
Wel, R. R. Downs FI R. S. Chen. 设计 跨 学 科 数 
据 提 交 的 工作 流 ， 便 于 满足 跨 领 域 研究 的 科研 
人 员 提 交 数 据 的 需求 PL 
3.3.2 数据 管 护 的 软 硬 件 设施 建设 
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数据 管 护 的 软 硬 件 设施 建设 包括 支撑 数 
据 管 护 的 平台 的 基础 设施 ， 文 持 数据 集成 和 
关联 的 软件 技术 。 表 2 列 出 聚 类 2#biologist- 
centricsoftware 的 被 引文 献 和 施 引 文献 是 面向 数 
据 管 护 的 基础 设施 的 建设 研究 ， 这 些 文献 主要 
是 探讨 支撑 管 护 软件 研发 和 平台 构建 、 服 务 体 
系 建设 以 及 最 住 实践 探索 。 


表 2 RŽ 2#biologist-centricsoftware 核心 被 引文 献 与 施 引 文献 
被 引文 献 施 引 文献 
被 引 ”中 心 度 作者 年 份 文献 标题 引用 文献 标题 
2 0.02 C. Lagoze 2006 Fedora: an architecture for [2] Receptivity to Library Involvement 
complex objects and their in Scientific Data Curation: A Case 
relationships Study at the University of Colorado 
Boulder 
3 0 D. S. Brandt 2007 Librarians as partners in [6] Curation and preservation of 
e-research: Purdue University research data in an iRODS data 
Libraries promote collaboration grid 
3 0 L. Lyon 2007 Dealing with Data: Roles, Rights, 


Responsibilities and Relationships 


开源 数字 仓储 软件 (Fedora) 描述 数字 对 象 及 
之 间 的 复杂 关系 ， 为 组 织 机 构 在 管理 及 保存 数字 
资源 方面 提供 基础 中。iRODS (integrated Rule- 
Oriented Data System) 的 数据 网 格 帮助 用 户 高 
效 、 简 易 管理 各 类 数据 资源 中。 英国 图 书馆 与 
信息 网 络 办 公 室 总 结 数 据 管 护 的 服务 框架 ， 鉴 定 
关键 利益 主体 , 分 析 其 责任 、 权 利 与 协作 方式 , 确 
定数 据 管 理 的 目标 (数据 的 保存 \ 访 问 和 重用 ), 确 
定 实现 目标 的 机 制 、 流 程 和 实践 中。 普 渡 大 学 
书馆 在 e-Science 环境 下 ， 构 建 面 向 科研 的 髓 
和 信 式 服务 的 协同 结构 ,开展 研究 数据 管理 服务 , 包 
括 数据 描述 、 类 型 和 格式 的 标准 、 收集 、 组 织 、 归 
档 与 保存 的 ， 科 罗拉 多 大 学 博 尔 德 分 校 图 书馆 
参与 领域 科学 的 数据 管 护 的 过 程 ， 表 明 图 书馆 在 
专业 人 才 、 基 础 设施 与 信息 服务 的 优势 将 有 助 于 
开展 数据 管 护 活动 中 。 以 上 图 书馆 的 探索 成 为 
数据 管 护 的 最 佳 实践 。 

K 3 列 出 聚 类 6#annotation 的 被 引文 献 和 施 
引文 献 是 基于 数据 集成 和 关联 的 数据 管 护 ， 通 


过 构建 大 规模 知识 化 的 科学 数据 网 络 ， 便 于 研 
究 者 深入 挖掘 和 有 效 解释 科研 数据 中 各 类 资源 
对 象 的 内 涵 和 关系 。 

基因 芯片 数据 协会 组 织 开 发 了 微 阵列 数 
据 标 准 ， 规 范 了 人 微 阵列 实验 解释 的 最 小 信息 描 
述 中， 促进 国际 上 基因 组 学 的 实验 室 及 公共 
数据 库 的 数据 交流 。C. A. Ball 评述 微 阵列 数 
据 标 准 ， 规 范 了 人 微 阵列 实验 数据 的 注释 描述 和 
交换 标准 ， 辅 助 微 阵列 数据 库 的 建设 和 数据 分 
析 工 具 的 开发 ， 促 使 高 质量 的 基因 表达 数据 的 
共享 ， 为 基因 研究 的 标准 化 铺 平 道路 请 。S. A. 
Sansone 提出 以 技术 手段 和 奖励 机 制 促进 生物 数 
据 的 互 操 作 性 ， 以 提高 科学 社 群 对 研究 数据 的 
充分 利用 和 开放 共享 路。D. Howe 认为 生物 研 
究 数 据 管 理 和 生物 学 数据 管理 的 出 现 ， 解 决 不 
断 增 长 的 高 质量 数据 需求 与 有 限 、 落 后 的 数据 
管理 之 间 的 矛盾 PY. B.M. Good 等 通过 语义 维 
基 构 建生 物 医 学 的 语义 网 链接 ， 直 接 般 入 维基 
百科 编辑 器 来 计算 文章 上 下 文 的 语义 关系 ， 增 
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强 维基 百科 文章 的 语义 呈现 ， 便 于 用 户 查 询 与 
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发 现 [32] p 


表 3 聚 类 6#annotation 的 被 引文 献 和 施 引文 献 
被 引文 献 施 引文 献 
被 引 中 心 度 作者 年 从 文献 标题 引用 文献 标题 
8 0.61 A.Brazma 2001 Minimum information about a [7] ArrayTrack - Supporting 
microarray experiment (MIAME)— toxicogenomic research at the US 
toward standards for microarray data Food and Drug Administration 
national Center for Toxicological 
Research 
5 0.51 S.A. Sansone 2012 Toward interoperable bioscience data [2] Building a biomedical semantic 
network in Wikipedia with 
1 0.47 C. A. Ball 2002 Standards for Microarray Data Semantic Wiki Links 
7 0.03 D. Howe 2008 Big data: The future of biocuration 


3.3.3 数据 管 护 在 具体 学 科 的 应 用 
数据 管 护 在 生物 学 科 、 化 学 信息 学 与 生 

物 信 息 学 方面 得 到 充分 运用 。 表 4 列 出 聚 类 

0#database 的 被 引文 献 和 施 引 文献 是 数据 管 护 在 


生物 学 科 的 具体 应 用 ， 这 些 文献 主要 是 基于 领 
域 本 体 与 元 数据 的 数据 描述 的 管 护 活动 ， 为 生 
物 数据 的 描述 和 分 类 实现 格式 化 ， 为 计算 机 人 处 
理 创造 可 能 。 


表 4 RŽ 0#database 核心 被 引文 献 与 施 引 文献 


被 引文 献 施 引 文献 
被 引 中心 度 “作者 年 份 文献 标题 引用 文献 标题 
11 0.29 M. 2000 Gene Ontology: tool for [6] Integration of tools and resources for display 
Ashburner the unification of biology and analysis of genomic data for protozoan 
parasites 
2 0.21 R 2004 UniProt: the Universal [2] Long-term genome-wide blood RNA expression 
Apweiler Protein knowledgebas profiles yield novel molecular response 
candidates for IFN-beta-1b treatment in 
relapsing remitting 
1 0.19 A. Bahl 2003 PlasmoDB: the [1] Integration of data in biosciences 


Plasmodium genome 
resource. A database 
integrating experimental 
and computational data 


随 着 新 一 代 基因 测序 技术 的 快速 发 展 , 使 
得 基因 组 和 转录 组 开始 进入 高 通 量 测序 ， 实 


现 ， 统 一 了 规范 基因 功能 注释 和 描述 O, E 
命 研究 数据 库 采用 基因 本 体 来 对 研究 数据 进 


验 室 和 基因 数据 库 得 到 海量 核 序 列 数 ， 但 是 
对 核 序 列 数 的 描述 和 保存 格式 不 统一 ， 严 重 
阻碍 了 学 术 交 流 与 资源 共享 。 基 因 本 体 的 出 


行 标 注 , 通用 和 蛋白质 资 源 数据 库 (UniProt) 为 
科学 社 群 提供 集成 、 高 质量 、 可 获取 的 蛋白 
质 资源 数据 59，PlasmoDB 数据 库 通 过 症 原 
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虫 基因 注释 标准 化 ， 关 联 基 因 组 定位 、 转 录 
本 信息 等 各 种 信息 , TT ERR A a 
数据 的 描述 、 注 释 以 及 保存 格式 的 规范 ， 有 
助 于 人 研究 的 新 发 现 ， 通 过 统一 基因 本 体 术 
语 ， 便 于 集成 高 质量 的 数据 资源 ， 便 于 发 现 
基因 之 间 的 相互 作用 的 证 据 1。 

表 5 列 出 聚 类 1#QSARmodeling 的 被 引文 
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献 和 施 引 文献 是 数据 管 护 在 化 学 信息 学 的 具体 
应 用 ， 这 些 文献 主要 是 围绕 研究 数据 建 模 过 程 
的 管 护 活动 ， 依 据 数学 原理 ， 探 索 数据 之 间 的 
关系 ， 提 取信 息 及 发 现 知识 等 。 定 量 构 效 关 系 
(quantitative structure activity relationship, QSAR) 
作为 化 学 信息 学 的 主要 研究 方法 ， 是 对 化 合 物 
结构 与 其 活性 之 间 关 系 的 定量 描述 研究 ™。 


表 5 RŽ 1#QSAR modeling 核心 被 引文 献 与 施 引 文献 


被 引文 献 


施 引 文献 


被 引 中 心 度 


作者 年 份 


文献 标题 


引用 文献 标题 


2 0.27 R. Judson 2009 The toxicity data landscape [2] Genotype-phenotype databases: 
for environmental chemicals challenges and solutions for the post- 
genomic era 
7 0.13 D. Fourches 2010 Trust, But Verify: On the [2] A quality alert and call for improved 
Importance of Chemical curation of public chemistry databases 
Structure Curation in 
Cheminformatics and QSAR 
Modeling Research 
3 0.1 M. 2000 KEGG: Kyoto Encyclopedia [2] Data governance in predictive toxicology: 
Kanehisa of Genes and Genomes a review 
[2] Best practices for QSAR model 


建立 研究 数据 的 汇聚 机 制 与 模型 ,如 集 
成 计算 毒 理学 资源 (Aggregated Computational 
Toxicology Resource, ACToR)、 京 都 基因 和 基 
组 学 百科 全 书 (Kyoto Encyclopedia of Genesand 
Genomes, KEGG) 和 基因 型 一 表现 型 数据 库 
(Genotype-phenotype databases) ， 以 解决 数据 
的 多 源 、 异 构 带 来 的 数据 使 用 效率 低 的 难题 。 科 
人 研 信息 化 的 推进 ， 数 据 驱 动 科学 研究 的 发 展 ， 数 
据 质 量 直 接 决 定 研 究 的 成 改 。 化 学 数据 建 模 分 析 
过 程 采 用 标准 规范 中， 划 定 分 析 阶 段 ， 来 确保 
QSAR 模型 分 析 结 果 的 有 效 性 中。 面 对 预 测 毒 
理学 的 数据 的 来 源 涉及 学 科 广 、 数 据 的 表示 灵活 
多 样 ，F. Xin 认为 数据 管 护 能 确保 预测 毒 理学 的 
计算 基础 的 数据 高 质量 ， 推 进 学 科 发 展 中 。A.. 
Williams 和 S.EKINS 倡议 化 学 数据 库 采 用 数据 管 
护 ， 来 保障 数据 质量 ， 推 动 科研 进展 "1。 


development, validation, and exploitation 


表 6 列 出 聚 类 5#bioinformatics 的 被 引文 
献 和 施 引 文献 是 数据 管 护 在 生物 信息 学 的 具体 
应 用 ， 这 些 文献 论证 了 数据 管 护 是 如 何 支持 生 
物 信息 学 的 研究 新 模式 。J. Bellenson 指出 ， 微 
阵列 芯片 技术 在 鉴定 致癌 物质 与 环境 危害 的 应 
用 ， 促 使 毒 理学 研究 的 范式 由 假设 驱动 的 研究 
转向 数据 驱动 的 实验 外， 数据 对 科研 的 重要 性 
日 益 显 著 。W. Tong 等 指出 arraytrack 具有 集合 
毒 理 学 的 数据 存储 、 分 析 和 可 视 化 的 功能 ， 文 
持 毒 物 学 研究 的 进展 与 新 发 现 中 |。 
3.3.4 数据 管 护 的 利益 相关 者 以 及 图 书馆 的 服务 
模式 

表 7 列 出 聚 类 4#digitalcuration 的 被 引文 献 
和 施 引 文献 确定 了 数据 管 护 的 利益 相关 者 ， 这 
些 文献 主 是 围绕 数据 管 护 利益 相关 者 展开 的 角 
色 定 位 、 职 责 划 定 和 相互 协作 研究 。 
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表 6 RŽ 5#bioinformatics 核心 被 引文 献 与 施 引 文献 
被 引文 献 施 引 文献 
被 引 中 心 度 作者 年 份 文献 标题 引用 文献 标题 
1 0.46 C.A. Afshari 1999 Application of complementary DNA [7] ArrayTrack - Supporting 
microarray technology to carcinogen toxicogenomic research 
identification, toxicology, and drug at the US Food and Drug 
safety evaluation Administration national 

1 0.03 J.L.Bellenson 1999 Expression data and the Center for Toxicological 


bioinformatics challenges Research 
表 7 RŽ 4#digital curation 核心 被 引文 献 与 施 引文 献 
被 引文 献 施 引文 献 
被 引 _ 中 心 度 作者 年 份 文献 标题 引用 文献 标题 
4 0.22 G. Pryor 2009 Skilling up to do data: whose role, whose [2] Placing the 
responsibility, whose career? horse before the 
5 0.13 A. Gold 2007 Cyberinfrastructure, data, and libraries amy AER wal 
Libraries and the data challenge: roles and ana technical 
actions for librar dimensions.of 
digital curation 
5 0.10 National 2005 long-lived digital data collections: enabling 


Science Board 


research and education in the 21st century 


美国 国家 科学 委员 会 (National Science 
Board, NSB) 发 布 《21 世界 长 期 数字 数据 集合 
研究 与 教育 》， 明 确 了 管理 层面 对 长 期 数字 数 
据 集合 管理 的 重视 ， 开 展 数据 管理 研究 以 及 教 
育 培训 ， 以 支撑 2000 年 以 后 的 科学 研究 。 基 于 
数据 在 不 同 阶段 的 管理 要 求 ， 提 出 不 同 机 构 、 部 
门 的 数据 服务 角色 定位 ， 以 实现 数据 管理 服务 
角色 的 协作 ， 实 现 数据 管理 服务 的 目标 所 。 图 
书馆 作为 信息 资源 管理 的 参与 者 ， 折 展 和 延伸 
数据 服务 ， 定 位 管理 角色 与 职责 ， 研 究 技术 标 
准 和 数据 生命 周期 理论 等 ， 以 期 在 研究 数据 管 
理 乃 至 科学 研究 中 发 挥 重要 作用 。H. R. Tibbo 
从 社会 科学 角度 度 审 视 数据 管 护 ， 尽 管 数据 管 
护 的 发 展 离 不 开 计 算 机 技术 的 支撑 ， 但 社会 科 
学 对 数据 资产 的 长 期 管 护 更 具有 指导 中。 

表 8 列 出 聚 类 7#science 的 被 引文 献 和 施 
引文 献 描述 了 科研 新 模式 下 图 书馆 的 探索 ， 这 
些 文献 主要 是 描述 了 图 书馆 的 数据 管 护 服务 模 
式 。L.Lyon 指出 ， 随 着 “信息 转变 ”"， 图 书馆 需 
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要 审视 在 数据 驱动 科研 环境 下 的 机 构 目 标 和 服 
务 范围 时。P. Hswe 和 P Hswe 从 学 术 图 书馆 
在 人 员 配 置 、 基 础 设施 及 服务 定位 角度 ， 论 述 
图 书馆 参与 数据 管理 的 必要 性 和 参与 模式 ， 指 
出 图 书馆 将 出 现 新 的 职业 角色 来 满足 数据 管理 
的 需要 中。G. S. Choudhury HXI AREKE 
斯 大 学 已 有 的 机 构 库 等 基础 设施 开展 数据 管 护 
服务 ， 强 调 数据 科学 家 和 数据 人 文 专家 等 新 角 
色 在 数据 管 护 中 发 挥 的 作用 ， 能 全 面 文 持 高 校 
研究 数据 管理 外。L. M.Delserone 论述 了 明 
尼 苏 达 大 学 图 书馆 与 机 构 库 、 信 息 部 门 等 协同 
合作 ， 共 同 规划 建设 学 校 的 数据 管 护 的 基础 设 
施 ;， 同 时 图 书馆 配置 专业 人 才 队 伍 ， 满 足 图 书 
馆 开 展 数据 管理 与 服务 的 要 求 ， 建 设 “ 科 学 馆 
BRIE”. L. Lyon 基于 Research360 的 机 构 
研究 生命 周期 模型 ， 总 结 图 书馆 开展 数据 管 护 
服务 的 10 个 阶段 , 包括 数据 管理 要 求 、 计 划 、 信 
息 学 基础 、 引用、 培训 、 许 可 、 鉴 定 、 存 储 、 获 
取 、 影 响 °°, 
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表 8 BŽ 7#science 的 被 引文 献 和 施 引 文献 


被 引文 献 


施 引 文献 


被 引 中 心 度 作者 年 份 


文献 标题 


引用 


文献 标题 


6 0.35 G.S. 


Choudhury 


L.M. 
Delserone 


6 0.32 2008 


2008 Case study in data curation at Johns Hopkins [3] 
University 


Data management 
services in libraries 


At the watershed: preparing for research 
data management and stewardship at the 


University of Minnesota Libraries 


4 0.24 L. Lyon 2012 


The informatics transform: re-engineering 


libraries for the data decade 


随 着 21 世纪 的 信息 技术 革命 ， 科 学 研究 范 
式 向 数据 密集 型 转变 ， 共 同 推动 数据 管 护 研究 的 
兴起 。 对 国际 的 数据 管 护 研究 的 分 析 和 解读 表 
明 ， 研 究 主体 具有 多 学 科 性 ， 其 中 ， 生 命 科 学 与 
生物 医学 基于 自身 学 科 知 识 体系 ， 围 绕 特 定 项 目 
进行 数据 管 护 的 研究 ， 计 算 机 与 图 情 等 应 用 学 科 
则 基于 人 研究 数据 的 通 性 ， 人 研究 通用 的 研究 数据 
的 基础 设施 与 技术 标准 规范 。 研 究 主体 的 机 构 主 
要 集中 在 欧美 ， 其 中 北 卡罗来纳 大 学 教堂 山 分 
校 、 爱 丁 堡 大 学 和 普 渡 大 学 在 数据 管 护 领域 比较 
活跃 ， 具 有 很 大 影响 力 。 相 较 国 外 ， 中 国 对 数据 
管 护 的 研究 相对 薄弱 ， 武 汉 大 学 信息 管理 学 院 在 
国际 数据 管 护 的 专业 人 才 培 养 上 开展 深入 调研 与 
分 析 ， 具 有 较 强 的 影响 力 。 研 究 主 体 的 学 者 合作 
不 够 紧密 ， 缺 少 稳定 的 、 高 质量 的 研究 团队 。 数 
据 管 护 的 知识 基础 集中 于 数据 管 护 对 科研 活动 的 
新 价值 、 数 据 管 护 的 软 硬 件 设 施 的 建设 、 数 据 管 
护 在 具体 学 科 的 应 用 、 数 据 管 护 的 利益 相关 者 以 
及 图 书馆 的 服务 模式 。 基 于 上 述 对 国际 数据 管 护 
研究 的 英文 文献 的 梳理 ， 望 能 为 国内 开展 数据 管 
护 研 究 佛 来 启示 与 借鉴 。 
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Research on Mapping the Knowledge Domain of Digital Curation 
—A Bibliometric Study of Web of Science (1990-2016) 
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Abstract: [Purpose/significance] Digital Curation (DC) is an important part of research data management in 
e-Science environment. By systematically combing the research progress and proposing some issues worthy 
of further studying, this paper aims to provide a basis and reference for national research data management 
research. [Method/process] Documents relevant to data curation were retrieved from Web of Science 
database. With CiteSpace Ill software based on the document co-citation analysis method, this paper drew 
the knowledge map of international digital curation. In terms of research-based subject distribution, research 
institutions, researchers and knowledge of the four dimensions, the related contents were analyzed and 
summarized with the content analysis method. [Result/conclusion] International digital curation research 
began in 2000. Now it has entered a mature period, with a specific research disciplines, institutions and 
groups. The research’s knowledge base is data description, integration and association, data maintenance 
in the scientific research process and value-added activities, data management stakeholders and service 
innovation models of library services. 
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